内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
上一日,咱们引荐了顶刊上出现的样本选择偏差vs自选择偏差问题及其处理方式汇编,从中了解了一些与样本选择相关的自选择问题(self-selection bias)。当存在自选择偏差时,我们首先想到的是一些匹配方法,比如PSM(1.PSM倾向匹配详细步骤和程序, 让Match进行到底,2.执行PSM的标准操作步骤, 不要再被误导了,3.PSM,RDD,Heckman,Panel模型的操作程序,4.逐年匹配的PSM-DID操作策略, 多时点panel政策评估利器,5.PSM-DID, DID实证完整程序百科全书式的宝典,6.分位数DID, PSMDID, 政策前协变量平衡性检验操作步骤和案例,7.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王,8.广义PSM,连续政策变量因果识别的不二利器,9.PSM匹配后如何保留配对样本? 1:1, 1:4或更多情况呢?),NNM(1.处理效应模型选择标准,NNM和PSM,赠书活动),CEM(1.粗化精确匹配CEM文献推荐, 程序步骤可复制,2.无需检查协变量平衡性的CEM匹配, 到底有多神气和与众不同),GM(1.PSM和马氏匹配已淘汰, '遗传匹配'成因果推断匹配之王)等。不过,匹配方法只能处理依可观测变量基础上的自选择问题,对于不可观测变量基础上的选择问题就显得力不从心。
对于不可观测变量基础上的自选择问题,匹配方法失去效力,此时需要用到的计量方法是“处理效应模型”,即处理变量为0-1的政策评估模型。假设,我们想要评估是否上大学对将来工作薪酬的影响,其中,“是否上大学”为0-1政策变量,“个体工作薪酬”为结果变量。不过,我们担心“是否上大学”变量存在自选择偏差,即有能力的(天资聪颖的)个体更有可能进入大学读书。在这个模型中,“是否上大学”是个内生二元处理变量,因为存在不可观测的能力与“是否上大学”和“将来工作薪酬”都相关。
此时,解决办法通常参照Heckman(1979)样本选择模型的传统,直接对处理变量进行结构建模,之后使用Heckman两步法进行估计。需要注意的是,这一处理效应模型要求结构方程中存在合理的工具变量(或结果方程与选择方程扰动项服从二元正太分布)。这相当于,为0-1处理变量寻找一个工具变量,从而缓解其不可观测变量基础上的自选择偏差。在本文的模型中,需要为“是否上大学”找一个工具变量,该变量与是否上大学相关,但不会直接影响个体工作薪酬。借鉴既有文献,我们使用“家庭到就读(中小)学校的距离”(distance)作为“是否上大学”的工具变量。其合理之处在于,到就读学校的距离与是否上大学相关,但却不会直接影响个体在将来的工作薪酬。为了使审稿人相信我们的推断,可以就到就读学校的距离与是否上大学做些简单的描述性统计。例如,可以比较一下到就读学校近的个体上大学的比例,是否显著高于到就读学校远的个体上大学的比例。
论证了工具变量的合理性后,需要使用Heckman两步法对结构模型进行估计。在第一阶段,我们以“上大学”为因变量,将那些影响个体上大学的因素作为自变量进行Probit回归,并得到逆米尔斯比例lamda(lamada衡量存在多大程度的自选择行为)。在第二阶段,我们需要将第一阶段估计得到的lamda代入结果变量的回归方程中。
一个简单的code:
gen treatment=(x1==1)
local covariate “x2 x3 x4”etregress y `covariate' i.year i.province, treat(treatment=distance `covariate’ i.year i.province) two first
outreg2 using “etreg.xls”, bdec(4) sdec(4) rdec(4) bracket replaceetregress y `covariate' i.year i.province, treat( treatment=distance IV1 `covariate’i.year i.province) two first
outreg2 using “etreg1.xls”, bdec(4) sdec(4) rdec(4) bracket append注:其中IV1是另一个工具变量。
下面这几段话清楚地展示了自选择效应的表达式,其中式(4)是结果变量Y的表达式,式(5)是处理变量的表达式,Ω为两个式子的方差协方差矩阵。
转换回归模型也可以看作是一种“双样本选择”问题,因为研究者可以通过两个Heckman样本选择过程,分别用模型估计处理组和控制组的系数。此时,若研究者首先关注一个子样本的观测数据并估计模型(6a)和(7),他之后可以关注另一个子样本的数据并估计模型(6b)和(7)。虽然采取这种方法是可行的,但事实上只利用了在子样本内的变化信息,与同时估计整个模型的方法相比,仍然是一个效率较低的过程。此外,执行两个Heckman样本选择程序实质上意味着假设参数
比较OLS,IV,内生处理效应,内生转换模型的回归结果:
长按以上二维码阅读全文
拓展性阅读精选文章
前些日,咱们引荐了①“实证研究中用到的200篇文章, 社科学者常备toolkit”、②实证文章写作常用到的50篇名家经验帖, 学者必读系列、③过去10年AER上关于中国主题的Articles专辑、④AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向,⑤2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了①使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!,②这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授,③Python, Stata, R软件史上最全快捷键合辑!,④关于(模糊)断点回归设计的100篇精选Articles专辑!,⑤关于双重差分法DID的32篇精选Articles专辑!,⑥关于合成控制法SCM的33篇精选Articles专辑!⑦最近80篇关于中国国际贸易领域papers合辑!,⑧最近70篇关于中国环境生态的经济学papers合辑!这些文章受到了各位学者的欢迎和热议,博士生导师纷纷将其推荐给学生参阅。
内生性问题的拓展性阅读
2年,计量经济圈公众号近1000篇文章,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 |
计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 |
数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 |
计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。